跳过连接是编码器网络中的基本单元,能够改善神经网络的特征宣传。但是,大多数带有跳过连接的方法仅连接了编码器和解码器中相同分辨率的连接功能,这忽略了编码器中的信息损失,而图层的进度更深。为了利用编码器较浅层中特征的信息损失,我们提出了一个完整的跳过连接网络(FSCN),以实现单眼深度估计任务。此外,要更接近跳过连接中的功能,我们提出了一个自适应串联模块(ACM)。此外,我们对FSCN和FSCN的室内和室内数据集(即Kitti Dataste和NYU DEPTH DATASET)进行了广泛的实验。
translated by 谷歌翻译
联合学习(FL),使不同的医疗机构或客户能够在没有数据隐私泄漏的情况下进行协作培训模型,最近在医学成像社区中引起了极大的关注。尽管已经对客户间数据异质性进行了彻底的研究,但由于存在罕见疾病,阶级失衡问题仍然不足。在本文中,我们提出了一个新型的FL框架,用于医学图像分类,尤其是在处理罕见疾病的数据异质性方面。在Fedrare中,每个客户在本地训练一个模型,以通过客户内部监督对比度学习提取高度分离的潜在特征,以进行分类。考虑到有限的稀有疾病数据,我们建立了积极的样本队列以进行增强(即数据重采样)。 Fedrare中的服务器将从客户端收集潜在功能,并自动选择最可靠的潜在功能作为发送给客户的指南。然后,每个客户都会通过局部间的对比损失共同训练,以使其潜在特征与完整课程的联合潜在特征保持一致。通过这种方式,跨客户的参数/特征差异有效地最小化,从而可以更好地收敛和性能改进。关于皮肤病变诊断的公共可用数据集的实验结果表明,Fedrare的表现出色。在四个客户没有罕见病样本的10客户联合环境下,Fedrare的平均水平准确度平均增长了9.60%和5.90%,与FedAvg和FedAvg的基线框架和FedArt方法分别相比。考虑到在临床情况下存在罕见疾病的董事会,我们认为Fedrare将使未来的FL框架设计受益于医学图像分类。本文的源代码可在https://github.com/wnn2000/fedrare上公开获得。
translated by 谷歌翻译
Face forgery detection plays an important role in personal privacy and social security. With the development of adversarial generative models, high-quality forgery images become more and more indistinguishable from real to humans. Existing methods always regard as forgery detection task as the common binary or multi-label classification, and ignore exploring diverse multi-modality forgery image types, e.g. visible light spectrum and near-infrared scenarios. In this paper, we propose a novel Hierarchical Forgery Classifier for Multi-modality Face Forgery Detection (HFC-MFFD), which could effectively learn robust patches-based hybrid domain representation to enhance forgery authentication in multiple-modality scenarios. The local spatial hybrid domain feature module is designed to explore strong discriminative forgery clues both in the image and frequency domain in local distinct face regions. Furthermore, the specific hierarchical face forgery classifier is proposed to alleviate the class imbalance problem and further boost detection performance. Experimental results on representative multi-modality face forgery datasets demonstrate the superior performance of the proposed HFC-MFFD compared with state-of-the-art algorithms. The source code and models are publicly available at https://github.com/EdWhites/HFC-MFFD.
translated by 谷歌翻译
Attention-based arbitrary style transfer studies have shown promising performance in synthesizing vivid local style details. They typically use the all-to-all attention mechanism: each position of content features is fully matched to all positions of style features. However, all-to-all attention tends to generate distorted style patterns and has quadratic complexity. It virtually limits both the effectiveness and efficiency of arbitrary style transfer. In this paper, we rethink what kind of attention mechanism is more appropriate for arbitrary style transfer. Our answer is a novel all-to-key attention mechanism: each position of content features is matched to key positions of style features. Specifically, it integrates two newly proposed attention forms: distributed and progressive attention. Distributed attention assigns attention to multiple key positions; Progressive attention pays attention from coarse to fine. All-to-key attention promotes the matching of diverse and reasonable style patterns and has linear complexity. The resultant module, dubbed StyA2K, has fine properties in rendering reasonable style textures and maintaining consistent local structure. Qualitative and quantitative experiments demonstrate that our method achieves superior results than state-of-the-art approaches.
translated by 谷歌翻译
Unsupervised person re-identification (ReID) aims at learning discriminative identity features for person retrieval without any annotations. Recent advances accomplish this task by leveraging clustering-based pseudo labels, but these pseudo labels are inevitably noisy which deteriorate model performance. In this paper, we propose a Neighbour Consistency guided Pseudo Label Refinement (NCPLR) framework, which can be regarded as a transductive form of label propagation under the assumption that the prediction of each example should be similar to its nearest neighbours'. Specifically, the refined label for each training instance can be obtained by the original clustering result and a weighted ensemble of its neighbours' predictions, with weights determined according to their similarities in the feature space. In addition, we consider the clustering-based unsupervised person ReID as a label-noise learning problem. Then, we proposed an explicit neighbour consistency regularization to reduce model susceptibility to over-fitting while improving the training stability. The NCPLR method is simple yet effective, and can be seamlessly integrated into existing clustering-based unsupervised algorithms. Extensive experimental results on five ReID datasets demonstrate the effectiveness of the proposed method, and showing superior performance to state-of-the-art methods by a large margin.
translated by 谷歌翻译
发现深神经网络(DNN)容易受到对抗噪声的影响。它们通常被对抗样本误导,以做出错误的预测。为了减轻本文,我们从信息理论的角度研究了目标模型的输出与输入对抗样本之间的依赖性,并提出了一种对抗性防御方法。具体而言,我们首先通过估计输入和自然模式之间的相互信息(MI)(称为天然MI)以及分别在输出和输入的对抗模式之间的依赖性(称为对抗MI)。我们发现,与W.R.T.相比,对抗样品通常具有更大的对抗性MI和较小的天然MI。天然样品。在这一观察结果的推动下,我们建议通过在训练过程中最大化自然MI并最大程度地减少对抗性MI来增强对抗性的鲁棒性。这样,目标模型应更加关注包含客观语义的自然模式。经验评估表明,我们的方法可以有效地提高针对多次攻击的对抗精度。
translated by 谷歌翻译
属性操作的目的是控制给定图像中的指定属性。先前的工作通过学习每个属性的分解表示形式来解决此问题,以使其能够操纵针对目标属性的编码源属性。但是,编码的属性通常与相关的图像内容相关。因此,源属性信息通常可以隐藏在分离的功能中,从而导致不需要的图像编辑效果。在本文中,我们提出了一个属性信息删除和重建(AIRR)网络,该网络可以通过学习如何完全删除属性信息,创建属性排除的功能,然后学习将所需属性直接注入重建图像中。我们在四个不同的数据集上评估了我们的方法,其中包括多种属性,包括DeepFashion合成,DeepFashion Fashion Felasion Feline Attribute,Celeba和Celeba-HQ,我们的模型将属性操纵精度和TOP-K检索率提高了10% 。一项用户研究还报告说,在多达76%的案件中,AIRR操纵图像比先前的工作更优选。
translated by 谷歌翻译
面部属性评估在视频监视和面部分析中起着重要作用。尽管基于卷积神经网络的方法取得了长足的进步,但它们不可避免地一次仅与一个当地社区打交道。此外,现有方法主要将面部属性评估视为单个多标签分类任务,而忽略了语义属性和面部身份信息之间的固有关系。在本文中,我们提出了一个小说\ textbf {trans} \ textbf {f} ace \ textbf {a} ttribute评估方法(\ textbf {transfa})的基于\ textbf {f} ace \ textbf {a}的表示,可以有效地增强属性的差异性表示。注意机制的背景。多个分支变压器用于探索类似语义区域中不同属性之间的相互关系以进行属性特征学习。特别是,层次标识构成属性损失旨在训练端到端体系结构,这可以进一步整合面部身份判别信息以提高性能。多个面部属性基准的实验结果表明,与最新方法相比,所提出的Transfa取得了出色的性能。
translated by 谷歌翻译
近年来,随着面部编辑和发电的迅速发展,越来越多的虚假视频正在社交媒体上流传,这引起了极端公众的关注。基于频域的现有面部伪造方法发现,与真实图像相比,GAN锻造图像在频谱中具有明显的网格视觉伪像。但是对于综合视频,这些方法仅局限于单个帧,几乎不关注不同框架之间最歧视的部分和时间频率线索。为了充分利用视频序列中丰富的信息,本文对空间和时间频域进行了视频伪造检测,并提出了一个离散的基于余弦转换的伪造线索增强网络(FCAN-DCT),以实现更全面的时空功能表示。 FCAN-DCT由一个骨干网络和两个分支组成:紧凑特征提取(CFE)模块和频率时间注意(FTA)模块。我们对两个可见光(VIS)数据集Wilddeepfake和Celeb-DF(V2)进行了彻底的实验评估,以及我们的自我构建的视频伪造数据集DeepFakenir,这是第一个近境模式的视频伪造数据集。实验结果证明了我们方法在VIS和NIR场景中检测伪造视频的有效性。
translated by 谷歌翻译
紧张的卷积神经网络(TCNN)吸引了他们在减少模型参数或增强概括能力方面的力量方面引起了很多研究的关注。然而,即使体重初始化方法,TCNN的探索也受到阻碍。要具体,一般的初始化方法,例如Xavier或Kaiming初始化,通常无法为TCNN产生适当的权重。同时,尽管针对特定架构(例如张量环网)采用了临时方法,但它们不适用于具有其他张量分解方法(例如CP或Tucker分解)的TCNN。为了解决这个问题,我们提出了一个普遍的权重初始化范式,该范式概括了Xavier和Kaiming方法,并且可以广泛适用于任意TCNN。具体而言,我们首先介绍重现转换,以将TCNN中的向后过程转换为等效卷积过程。然后,基于向前和后退过程中的卷积运算符,我们构建了一个统一的范式,以控制TCNN中特征和梯度的方差。因此,我们可以为各种TCNN得出粉丝和风扇的初始化。我们证明我们的范式可以稳定TCNN的训练,从而导致更快的收敛性和更好的结果。
translated by 谷歌翻译